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基于 微 博 的 细 粒 度 情 感 分 析 
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摘要 : 【 目的 】 对 微 博 进行 细 粒 度 情感 分 析 , 将 情感 分 为 8 类 , 并 计算 其 情感 强度 值 ， 从 而 尽 可 能 还 原 微 博 用 户 
情感 。 方法 ] 通过 微 博 语 料 分 析 构 建 疑问 词 词 表 , 在 大 连理 工大 学 情感 词汇 本 体 DUTIR 的 7 类 情感 基础 上 , 丰 
富 一 类 情感 “ 疑 ”， 并 利用 点 互信 息 法 构建 表情 符号 词典 ， 还 综合 考虑 否定 词 和 程度 副词 对 情感 表达 的 影响 ,利用 
Python 从 新 浪 微 博 上 获取 数据 , 并 用 及 语言 的 jiebaR 包 进 行 分 词 ， 对 情感 进行 分 类 并 计算 其 强度 。[ 结果 ] 得 到 
微 博 用 户 对 于 糖尿 病 7 类 常用 药物 的 8 类 情感 占 比 及 情感 强度 , 并 通过 正确 率 、 召 回 率 上 值 对 结果 进行 验证 , 其 
中 “ 奴 " 和 “ 哀 ” 的 正确 率 最 高 ， 分 别 为 85.73% 和 83.05%， 而 “ 乐 "? 和 “好 ”的 召回 率 与 值 均 最 高 ,为 81% 以 上 。 本 文 
新 增 情感 “ 疑 ” 的 正确 率 、 召 回 率 、F 值 分 别 为 77.33%、78.58%、77.95%, 均值 在 8 类 情感 中 排名 前 列 , 说 明 其 情 
感 识别 较 好 。[ 局 限 】 由 于 本 文 依赖 于 情感 词典 进行 情感 分 析 ， 因 此 为 了 更 好 的 分 析 结 果 , 情感 词典 仍 需 进一步 
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完善 。[ 结论 】 本 方法 具有 较 高 的 识别 率 和 可 靠 性 , 能够 更 好 地 对 微 博 上 的 情感 分 类 进行 细 粒 度 分 析 。 


关键 词 : 微 博 ” 细 粒 度 情感 分 析 “药物 
分 类 号 : TP393 
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中 国 互联 网 络 信 息 中 心 于 2017 年 1 月 发 布 的 《中 
国 互联 网 络 发 展 状况 统计 报告 》 显 示 , 截至 2016 年 12 
月 , 中 国 网 民 规模 达 7.31 亿 , 互联 网 普及 率 为 53.2% 吕 ， 
人 们 对 网 络 的 利用 率 越 来 越 高 。 随 着 Web 3.0 技术 的 
发 展 , 互联 网 上 出 现 了 社区 、 论 坛 、 博 客 、 微 博 等 各 
种 形式 的 社会 化 媒体 平台 , 它们 帮助 用 户 在 网 上 表达 
自己 对 某 一 事件 的 看 法 , 使 人 们 通过 互联 网 相互 影 
响 。 其 中 微 博 (Microblog) 具 有 用 户 多 、 消 息 数量 大 、 
更 新 快 等 特性 , 成 为 人 们 获取 信息 、 发 表 奥 论 的 主要 
途径 , 越 来 越 多 的 明星 、 政 府 机 构 、 企 业 等 也 选择 微 
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我 改进 ， 提 升 市 场 竞 争 力 ， 准 确 地 发 现 并 挖掘 微 博 中 
潜藏 的 商业 价值 和 社会 价值 。 


相关 研究 


微 博 情感 分 析 是 指 通过 分 析 和 挖掘 微 博 中 的 主观 
性 信息 来 判断 其 情感 倾向 。 目 前 国内 已 有 较 多 关于 微 
博 情感 分 析 的 研究 ,， 按 其 粒度 可 划分 为 两 大 类 ， 粗 粒 
度 的 情感 分 析 和 细 粒 度 的 情感 分 析 。 粗 粒度 的 情感 分 
析 主 要 是 基于 篇 章 级 和 句子 级 ， 而 且 在 分 析 过 程 中 仅 
考虑 情感 词 ， 并 未 考虑 评价 对 象 及 其 属性 的 情感 ; 细 
粒度 的 情感 分 析 一 般 指 词汇 级 情感 分 析 ， 目 前 关于 细 
粒度 情感 分 析 的 研究 主要 分 为 两 大 方面 : 一 方面 是 文 


博 进 行 重要 信息 的 发 布 和 传播 , 这 些 信息 充斥 了 大 量 
的 社会 热点 及 情感 。 通 过 对 微 博 用 户 发 布 的 内 容 进 行 
细 粒 度 情感 分 析 ， 尽 可 能 还 原 用 户 真 实情 感 ， 有 助 于 
人 们 及 时 获取 热门 话题 ， 帮 助 控制 社会 与 论 走向 ,也 
有 助 于 对 产品 评论 进行 分 析 , 不 仅 能 够 辅助 用 户 优化 
自身 的 购买 决策 ,还 能 够 帮助 企业 有 针对 性 地 进行 自 


本 中 产品 属性 和 对 应 情感 词 的 抽取 , 另 一 方面 是 对 情 
感 进行 分 类 。 在 产品 属性 的 提取 方面 , 主要 有 三 种 方 
法 , 一 种 是 基于 人 工 定义 的 方法 , 需要 针对 特定 领域 
的 产品 建立 该 领域 的 产品 属性 词汇 表 或 产品 本 体 中 )， 
如 李长江 构建 了 一 个 酒店 领域 的 特征 词典 , 并 在 常用 
的 中 文 情感 词典 的 基础 上 抽取 酒店 领域 评论 中 的 情感 
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词 构建 情感 词典 中 另外 一 种 是 基于 自动 提取 的 方法 ， 
通过 词性 标注 、 句 法 分 析 等 自然 语言 处 理 技术 对 产品 
评论 中 的 语句 进行 分 析 ， 从 中 自动 化 提取 产品 属性 
如 要 治 中 在 依存 句法 分 析 的 基础 上 添加 一 系列 语义 规 
则 , 显著 提高 了 评价 对 象 的 抽取 性 能 外 还 有 一 种 是 
使 用 主题 模型 的 方法 ， 如 彭 云 等 提出 语义 关系 约束 的 
主题 模型 SRC-LDA, 用 来 实现 语义 指导 下 LDA 的 细 
粒度 主题 词 提取 品 。 在 情感 分 类 方面 ,无论 是 粗 粒 度 还 
是 细 粒 度 的 情感 分 析 , 所 用 的 方法 均 可 分 为 三 类 ， 有 
监督 的 机 器 学 习 方 法 、 无 监督 情感 分 析 方 法 和 半 监 督 
情感 分 析 方法 。 有 监督 机 器 学 习 方法 通过 选取 例如 情 
感 词 等 的 情感 分 类 特征 ,通过 分 类 需 完 成 有 监督 的 训 
练 和 测试 。 具 有 里 程 碑 意 义 的 是 Pang 等 应 用 三 个 代表 
性 分 类 器 (支持 向 量 机 SVM、 朴 素 贝 叶 斯 NB、 最 大 痪 
ME) 对 文本 进行 情感 分 类 ,得 出 机 器 学 习 的 文本 情感 
分 类 性 能 较 好 ,可 达到 80% 的 准确 率 吧 ; 还 有 学 者 对 
不 同 的 分 类 算法 进行 比较 , 杨 艳 霞 利用 贝 叶 斯 算法 和 
SVM 分 类 算法 对 微 博 进行 情感 分 析 , 并 比较 了 两 种 算 
法 在 分 类 性 能 上 的 优 劣 ， 从 而 得 出 贝 叶 斯 算法 的 准确 
性 更 高 中 还 有 学 者 对 分 类 算法 进行 改进 ， 从 而 使 分 
类 效果 更 好 ， 陈 炳 丰 等 对 Linear-chain CRF 模型 进行 
改进 , 提出 一 种 双 层 结构 的 CRF 模型 ， 从 而 能 够 更 好 
地 满足 汽车 评论 在 情感 实体 识别 与 情感 倾向 分 类 的 需 
求 巾 , 半 监 督 分 析 方 法 基于 小 部 分 已 标注 数据 集 , 通 
过 对 部 分 无 标注 数据 进行 测试 来 扩大 已 标注 数据 集 规 
模 ， 之 后 进行 迭代 , 逐步 预测 数据 。 朱 晓 光 巴结 合 已 有 
的 标注 集运 用 半 监 督学 习 中 的 主动 学 习 方法 标注 微 博 
文本 的 情感 极 性 和 类 别 ， 以 减少 标注 成 本 ,并 将 标注 
的 数据 集 应 用 于 监督 学 习 中 ; 程 佳 军品: 提 出 基于 半 监 
督 递归 自动 编码 的 微 博 文本 情感 分 类 方法 ， 对 微 博 进 
行情 感 分 析 , 并 在 多 个 数据 集 上 较 基 于 文 持 向 量 机 的 
文本 情感 分 类 方法 取得 了 更 好 的 效果 。 但 由 于 半 监 督 
分 析 方 法 初始 标注 规模 小 ， 其 最 终 学 习性 能 也 持续 前 
弱 ， 因 此 不 具备 高 精度 能 力 。 

由 于 有 监督 学 习 依赖 于 充足 的 标注 语 料 , 但 是 微 
博 这 种 数量 庞大 的 互联 网 文本 导致 人 工 不 能 标注 大 规 
模 的 语 料 ， 其 适用 领域 与 规模 受到 限制 .此 外 ,由 于 微 
博 中 列 含 了 表达 情感 倾向 的 多 种 表情 符 导 和 网 络 用 
语 , 对 其 进行 标注 时 也 容易 受到 符号 变形 、 种 类 的 制 
约 ,， 因此 ,基于 有 监督 方法 的 情感 分 类 并 不 适用 于 微 


数据 分 析 与 知识 发 现 


博 , 微 博 中 情感 分 类 的 研究 更 多 倾向 于 没有 标注 样本 
的 无 监督 学 习 方 法 。 

无 监督 情感 分 析 方 法 主要 基于 现 有 的 情感 词典 或 
者 对 已 有 的 情感 词 虹 扩充 来 对 文本 进行 情感 分 析 。 目 
前 有 代表 性 且 使 用 较 广 泛 的 词典 资源 ， 英文 领 域 主要 
有 WordNet、General Inquirer 等 。 中 文 领域 常用 的 情 
感 词典 有 《 知 网 MHowNet)、NTUSD、C-LIWC、DUTIR 
等 。 能 德 兰 等 基于 HowNet 对 句子 的 褒贬 性 进行 了 研 
究 0; 潘 明 慧 等 提出 了 基于 词典 的 方法 识别 出 微 博 表 
达 的 6 种 情绪 中 。 人 情感 词典 扩充 的 方法 主要 分 为 两 部 
分 : 一 部 分 利用 特定 领域 语 料 构建 适用 于 该 领域 的 词 
典 ， 如 肖 江 等 利用 基于 知 网 的 语义 相似 度 算 法 在 
HowNet 的 基础 上 构建 领域 情感 词典 , 使 基础 情感 词 
典 不 适用 于 领域 情感 分 析 的 问题 得 到 一 定 的 改善 
男 一 部 分 通过 计算 未 登录 词 与 已 知情 感 类 别 词 的 语义 
相似 度 来 进行 扩充 ， 如 王 志 涛 等 基于 新 浪 微 博 平台 利 
用 统计 信息 和 点 互信 息 法 识别 新 词 及 情感 标注 ,最终 
构建 了 微 博 新 词 情感 词典 中。 近年 来 ,， 随 着 微 博 情感 
分 析 研 究 的 深入 ,， 越 来 越 多 人 将 目光 转向 其 他 表达 情 
感 的 情感 元 素 的 词典 构建 上 , 例如 张 珊 等 利用 微 博 中 
的 表情 图 片 并 结合 情感 词语 的 方法 构建 了 中 文 微 博 情 
感 语料库 中 王 文 远 等 构建 了 一 种 表情 符号 词典 将 文 
本 分 为 正 负 性 59; 粟 雨 睛 等 构建 了 中 英文 双语 词典 将 
文本 分 为 5 类 情感 ,结果 表明 其 准确 率 高 于 传统 的 分 
类 方法 71。 

虽然 目前 已 有 众多 从 方法 及 应 用 WI 的 角度 对 微 
博 进行 细 粒 度 情 感 分 析 的 研究 , 学 者 们 在 对 文本 中 评 
价 对 象 及 其 特征 和 对 应 的 情感 词 进 行 提 取 方 面 取得 了 
一 定 的 进步 , 但 对 于 情感 的 分 类 多 是 基于 正 负 二 元 、 
或 者 加 上 中 性 三 元 分 类 , 对 于 情感 的 分 类 较 粗 且 没 有 
考虑 情感 强度 。 人 类 情感 复杂 ,对 其 情感 的 分 析 研 究 
不 能 只 停留 在 好 恶 层 面 , 应 尽 可 能 细 分 情感 类 别 并 且 
计算 情感 强度 ， 从 而 在 真实 还 原 人 类 情感 的 基础 上 进 
行 相 关 研 究 。 虽 然 披 茹 一 请、 崔 安 顾 记 等 少数 学 者 也 
将 情感 进行 了 喜 她 误 乐 等 细致 分 类 , 但 是 均 不 涉及 
“ 疑 "这 类 情感 。 对 人 类 情感 的 缺失 识别 并 不 能 满足 人 
们 对 于 情感 分 析 的 需求 。 此 外 ， 人 们 对 于 细 粒 度 情 感 
分 析 的 研究 多 局 限于 情感 分 类 , 并 没有 计算 其 情感 强 
度 值 。 而 情感 必然 会 伴随 着 强 弱 的 表达 , 缺失 了 情感 
强度 值 的 比较 , 情感 分 析 也 并 不 完善 。 因此， 本文 在 对 
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于 微 博 的 情感 进行 情感 分 析 时 , 不 仅 通过 情感 词 词典 
进行 情感 分 类 , 还 考虑 到 同样 具有 情感 表达 作用 的 表 
情 符号 ， 利 用 点 互信 息 法 构建 了 表情 符号 词典 ,在 大 
连理 工 情感 词汇 本 体 库 DUTIR 的 “ 乐 、 好 、 怒 、 亡 

惧 、 恶 、 惊 ”7 类 情感 基础 上 增加 了 “ 疑 "类 情感 , 并 考 
虑 到 程度 副词 与 否定 词 对 于 情感 表达 的 影响 , 将 其 作 
为 影响 因素 对 每 类 情感 的 情感 强度 进行 计算 ， 从 而 更 
细腻 地 分 析 微 博 中 的 情感 ， 有 助 于 人 们 的 后 续 研 究 。 


3 情感 分 析 流程 与 方法 


情感 分 析 流程 
本 文 在 大 连理 工大 学 情感 词汇 本 体 库 的 “ 乐 、 好 、 
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更 准确 地 计算 出 每 类 情感 的 情感 强度 ,还 利用 点 互信 
息 法 (PMD 构 建 了 表情 符号 词典 ， 此外, 还 综合 考虑 了 
否定 词 及 程度 副词 等 修饰 词 对 于 情感 词 的 影响 , 构建 
了 程度 副词 词 表 和 和 否定 词 词 表 ,并 将 其 赋予 一 定 权重 ， 
以 便于 情感 强度 的 计算 。 以 微 博 上 2 型 糖尿 病 7 类 常 
用 药物 数据 为 例 , 利用 Python 从 新 浪 微 博 上 获取 数据 ， 
并 用 及 语言 中 的 jiebaR 包 进 行 分 词 , 结合 所 构建 的 词 
典 , 得 到 微 博 用 户 对 于 药物 的 细 粒 度 情感 分 析 ， 并 利 
用 正确 率 、 召 回 率 以 及 下 值 对 结果 进行 验证 。 此 外 , 为 
了 更 好 地 对 药物 进行 比较 , 利用 R 语言 对 切 词 后 的 数 
据 进 行 统计 ， 得 到 能 够 代表 用 户 所 关心 的 药物 的 高 
频 特 征 ， 并 对 其 进行 情感 分 析 ， 从 而 得 知 用户 对 于 药 


怒 、 哀 、 惧 、 恶 、 惊 "7 类 情感 基础 上 丰富 了 一 类 表示 物 某 类 特征 的 情感 倾向 及 强度 。 微 博 情 感 分 析 流程 如 
疑惑 的 “ 疑 "情感 , 将 用 户 的 情感 分 为 8 类 , 并 且 为 了 ”图 1 所 示 。 
DUTIR 情 感 词典 一 一 


疑问 词 


Python 编程 疏 取 


词 表 


和 每 类 药物 的 情感 倾向 
程度 副词 词 表 一 
Vv | 


药物 微 博 ”一 > 预 处 理 一 > jiebaR 分 词 


一 > 情感 分 析 结果 验证 


高 频 特 征 词 


3.2 ”研究 方法 

(1) 数据 的 获取 与 处 理 

利用 Python 语言 进行 编程 ， 以 完成 整个 数据 的 获取 ， 
获取 字段 包括 微 博文 本 (text)、 评 论 数 (comment)、 转 发 数 
(transfen 、 点 赞 数 (like) 和 用 户 ID(uid)。 

在 大 数据 环境 下 , 微 博 由 于 其 社会 化 媒体 的 特殊 
性 , 其 数据 鱼龙混杂 , 会 影响 情感 分 析 的 结果 ， 因此， 
需要 对 获取 的 微 博 数据 进行 一 些 必 要 的 处 理 。 数 据 清 
洗 规 则 如 下 : 

人 删除 与 目标 内 容 无 关 的 微 博 ; 


@) 员 除 因 转 发 而 重复 疏 取 的 微 博 ， 只 留 取 其 中 一 条 ; 

@@ 改 正 微 博 中 繁体 字 、 错 别 字 等 。 

由 于 情感 分 析 依赖 于 情感 词典 ,因此 必须 对 清洗 
后 的 数据 进行 分 词 。 由 于 R 语言 的 分 词 包 jiebaR 词汇 
量 大 日 一 直 处 于 更 新 状态 中 ， 其 分 词 准确 , 处 理 速 度 
快 , 并 且 能 够 支持 用 户 词典 ， 因此 本 文采 用 jiebaR 作 
为 中 文 分 词 工具 。 

(2) 基于 DUTIR 的 情感 补充 

DUTIR( 中 文 情 感 词汇 本 体 库 ) 是 大 连理 工大 学 信 
息 检索 研究 室 整 理 和 标注 的 一 个 中 文本 体 资源 中 I。 词 
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汇 本 体 中 的 情绪 共 分 为 7 种 : “好 、 乐 、 衣 、 怒 、 惯 、 
恶 、 惊 ”， 共 含有 情绪 词 27 466 个 ,情感 强度 分 为 : 1， 
3, 5, 7, 9 这 5 档 , 9 表示 强度 最 大 , 1 为 强度 最 小 。 该 
资源 从 不 同 角度 描述 一 个 中 文 词汇 或 者 短语 , 包括 
词语 词性 种 类 、 情 感 类 别 、 情 感 强度 及 极 性 等 信息 。 


每 个 词 在 每 一 类 情感 下 都 对 应 一 个 极 性 。 其 中 , 0 代 
表 中 性 ,1 代表 衰 义 , 2 代表 贬义 ,3 代表 兼 有 襄 贬 两 
性 。 为 了 根据 词汇 的 情感 强度 值 计 算 微 博 的 情感 强 
度 , 本 文 将 襄 义 极 性 值 不 变 ， 贬义 极 性 值 取 -1， 如 表 
1 所 示 。 


表 1 情感 词汇 本 体格 式 举 例 


词语 词性 种 类 词义 数 ”词义 序号 ”情感 分 类 强度 极 性 ”辅助 情感 分 类 ”强度 极 性 
无 所 睛 惧 idiom 1 1 PH 7 1 
手头 紧 idiom 1 1 NE 7 0 
周到 adj 1 1 PH 5 1 
言 过 其 实 idiom 1 1 NN 5 | 


DUTIR 将 情感 分 为 7 大 类 21 小 类 , 如 表 2 所 示 。 


表 2 情感 分 类 


编号 情感 大 类 ”情感 类 例 词 


1 未 快乐 (PA) 喜悦 、 欢 喜 、 笑 睐 旺 、 欢 天 喜 地 
2 安心 PE) 踏实 、 宽 心 、 定 心 九 、 问 心 无 愧 
3 苯 敬 (PD) 茶 敬 、 冤 爱 、 毕 茶 毕 敬 、 肃 然 起 敬 
4 赞扬 (PH) 英俊 、 优 秀 、 通 情 达 理 、 实 事 求 是 
5 好 相信 (PG) 信任 、 信 和 有赖 、 可 靠 、 二 良 置疑 

6 喜爱 (PB) 倾 莫 、 宝 贝 、 一 见 钟情 、 爱 不 释 手 
7 祝愿 (PK) 渴望 、 保 优 、 福 寿 绵长 、 万 寿 无 疆 
8 怒 愤怒 (NA) 气愤 、 恼 火 、 大 发 雷霆 、 七 窍 生 烟 
9 悲伤 NB) 忧伤 、 悲 苦 、 心 如 刀 制 、 悲 痛 欲 绝 
10 总 失望 (NJ) 憾事 、 绝 望 、 灰 心 丧 气 、 心 灰 意 冷 
11 次 (NH) 内 次 、 慎 悔 、 过 意 不 去 、 问 心 有 愧 
12 思 (PF) 思念、 相思 、 牵 肠 挂 肚 、 朝 思 莫 想 
13 慌 GND 慌张、 心慌 、 不 知 所 措 、 手 忙 脚 乱 
14 慢 恐惧 (NC) 胆 导 、 害 怕 、 担 惊 受 怕 、 胆 闸 心 惊 
15 差 (NG) ”害羞 、 害 有 操 、 面 红 耳 赤 、 无 地 自 容 
16 烦 间 (NE) 效 间 、 烦 躁 、 心 烦 意 乱 、 自 寻 烦 恼 
17 懂 恶 ND) 反感 、 可 耻 、 恨 之 人 骨 、 深 恶 痛 绝 
18 恶 贬 责 (NN) 有 果 板 、 虚 荣 、 杂 乱 无 章 、 心 狠 手 辣 
19 妒忌 (NK) 眼红 、 吃 醋 、 醋 坛子 、 嫉 贤 妨 能 
20 怀疑 (NL) 多 心 、 生 疑 、 将 信 将 疑 、 疑 神 疑 鬼 
21 惊 惊奇 (PC) 奇怪 、 奇 迹 、 大 吃 一 惊 、 眶 目 结 舌 


人 类 是 不 断 探索 的 生物 , 无 论 是 对 于 他 人 的 咨询 ， 
还 是 对 未 知 世 界 的 探索 , 表达 疑问 、 困 惑 的 “ 疑 "类 情 
感 在 人 类 全 部 情感 中 占有 相当 的 比例 。 尤 其 当今 是 网 
络 时 代 ， 人 们 通过 社会 化 媒体 进行 信息 的 搜寻 或 者 浏 
览 时 , 不 仅 传 统 的 表达 疑问 的 “为 什么 "等 疑问 词 比 比 
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皆 是 , 表达 疑问 的 “怎么 破 ” 等 网 络 用语 也 随处 可 见 。 
由 于 DUTIR 中 没有 表示 疑问 的 词汇 , 而 微 博 中 用 户 表 
达 疑 问 的 情绪 也 较 多 ， 因 此, 基于 《现代 汉语 词典 》 与 
新 浪 微 博 , 笔者 搜集 构建 了 一 个 常见 疑问 词 词 表 ， 共 
52 个 疑问 词 ， 如 表 3 所 示 。, 将 其 按照 表达 强 弱 , 分 为 4 
个 等 级 , 其 极 性 与 情感 强度 值 依据 DUTIR 格 式 由 人 工 
标注 , 作为 DUTIR 的 补充 情感 。 其 中 , 由 于 疑问 词 词 
典 是 为 了 分 析 微 博 中 的 疑问 情绪 ， 因 此 ,所 有 疑问 词 
极 性 值 均 取 1, 便于 后 续 计 算 。 
表 3 疑问 词 词 表 

序号 疑问 词 

哪儿 、 哪 里 、 怎 么 样 、 怎 么 着 、 如 何 、 

为 什么 、 难 道 、 呢 ? '、 吧 ? '、 啊 ? ， 

1 了 啥 、 为 何 、 怎 么 办 、 哪 些 、 问 题 、 请 问 、 7 1 

为 神 马 、 神 马 情况 、 为 哈 、 干 嘛 、 能 否 、 

何 时 、 求 问 

谁 、 何 、 什 么 、 神 马 、 几 时 、 怎 么 、 怎 

的 、 怎 样 、 岂 、 何 尝 、 吗 、 么 、 多 大 、 

有 没有 、 会 不 会 、 好 不 好 、 能 不 能 、 可 

不 可 以 、 行 不 行 

几 、 多 少 、 怎 、 难 怪 、 反 倒 、 何 必 、 你 

知道 

4 居然、 竟然 、 究 竟 1 1 


强度 值 极 性 值 


(3) 修饰 词 词典 的 构建 

用 户 对 于 情绪 的 表达 往往 不 只 是 含有 情感 词汇 ， 
还 含有 大 量 的 副词 对 情感 词汇 进行 修饰 。 为 了 更 好 地 
识别 微 博 的 情感 及 其 强度 ， 还 需要 构建 程度 副词 和 和 否 
定 词 等 修饰 词 词 表 。 根 据 《 现 代 汉 语词 典 》 以 及 前 人 
研究 5 ， 将 程度 副词 分 为 4 个 等 级 : 极 量 级 、 高 量 级 、 
中 量 级 、 微 量 级 ,并且 参 考 众多 学 者 对 于 程度 副词 权 


值 的 定义 方法 上 ， 最 终 将 程度 副词 的 强度 取 值 范围 

限定 在 [0，2]55,， 按照 4 个 等 级 递减 强度 值 ， 强 度 值 越 

靠近 0, 强度 越 弱 , 反之 则 强度 越 强 。 最 后 构建 了 51 

个 程度 副词 , 44 个 否定 词 ， 如 表 4 和 表 5 所 示 。 
表 4 程度 副词 词 表 

序号 程度 副词 


极 、 极 为 、 极 其 、 透 项 、 极 端 、 项 、 最 、 最 为 、 
绝顶 、 无 比 


多 、 很 、 非 常 、 甚 至 、 十 分 、 太 、 分 外 、 特 别 、 


强度 值 


， ”万 分 、 尤 其、 真 、 格 外 、 何 等 、 过 于 、 多 么 、 15 
更 加 、 更 为 、 更 、 越 加 、 越 发 、 愈 加 、 愈 、 相 
当 、 好 

3 颇 、 挺 、 比 较 、 较 、 较 为 、 较 比 1.2 

4 怪 、 有 点 、 有 点 儿 、 有 些 、 稍 、 稍 稍 、 稍 微 、 05 


稍 许 、 少 许 、 略 、 略 微 


表 5 否定 词 词 表 


否定 词 


白白 、 坪 、 别 、 并 非 、 不 、 不 必 、 不 曾 、 不 可 、 不 要 、 不 用 、 
从 不 、 从 未 、 非 、 毫 不、 毫 无 、 何 必 、 人 和 何曾、 何尝 、 何 须 、 
决 不 、 绝 不 、 绝 非 、 绝 无 、 没 、 没 有 、 莫 、 难 以 、 切 幻 、 尚 
未 、 徒 、 徒 然 、 枉 、 未 、 未 必 、 未 曾 、 未 尝 、 未 有 、 无 从 、 
无 须 、 无 良 、 毋 须 、 毋 庸 、 乡 


(4) 表情 符号 词典 的 构建 

微 博 平 台 上 , 系统 为 用 户 准备 了 丰富 的 表情 符号 
以 表达 他 们 的 情绪 , 人 研究 显示 , 含有 表情 符号 的 微 博 
占 比 约 为 18.73%F5 因此 表情 符号 对 于 微 博 用 户 情 感 
展示 的 作用 不 容 忽视 。 在 爬虫 过 程 中 ,表情 符号 会 转 
变 为 表情 符号 的 alt 标签 所 标记 的 文本 内 容 , 如 图 对 
应 的 为 [哈哈 ]， 优 对 应 的 为 [ 泪 ]。 
虽然 新 浪 微 博 表情 众多 , 但 不 是 每 一 个 都 为 人 们 
和 常用， 因此 本 文选 取 微 博 上 使 用 频率 最 高 的 113 个 表 
情 符号 构建 表情 符号 词典 。 词 典 的 构建 分 为 两 部 分 : 

(将 表情 符号 的 alt 标 签 内 的 词 与 DUTIR 对 应 ， 若 找到 
对 应 , 则 将 该 表情 符号 划分 到 该 情感 词 的 分 类 中 ; 

@) 若 未 找到 对 应 的 表情 符号 ， 则 利用 PMI 法 寻求 与 之 
共 现 频率 最 高 的 情感 词 或 已 知 分 类 的 表情 符号 ， 从 而 将 其 
归 为 一 类 。 

PMI 法 主要 用 于 计算 的 语义 相似 度 ， 基 本 思想 是 
统计 两 个 词语 在 文本 中 同时 出 现 的 概率 ， 如 果 概 率 越 
大 ,其 相关 性 就 越 紧密 ,关联 度 越 高 。 两 个 词语 之 间 ， 
即 wordl 和 word2 之 间 的 PMI 计算 公式 SJ 如 下 。 


{ 生 甘 日 干 || 


广 上 imnnyviwv 公 人 人生 甘 日 王 
C| InaxIV 瑟 人 F 划 HT| 
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P 
(wordl&word2) 
PMI rawora?) S log, P P 
(word1)’ (word2) 


其 中 ，PhM1oworul&word2) 表示 两 个 词语 共同 出 现 的 
频率 ，Peworal) 和 Poworaz) 表示 两 个 词 分 别 出 现 的 频 
率 。 若 计算 值 越 大 ,表明 两 个 词语 的 共 现 频率 越 高 , 相 
关 度 越 大 ; 反之 , 则 越 小 .本 文 将 两 个 词语 中 的 一 个 词 
替换 为 表情 符号 的 alt 标签 值 进行 计算 。 
通过 这 两 部 分 筛选 , 113 个 常用 表情 符号 中 , 已 找 
到 对 应 的 有 74 个 , 未 找到 对 应 的 有 39 个 。 因 此 利用 
Python 语言 编程 , 从 新 浪 微 博 上 疏 取 含有 这 39 个 表情 
符号 的 数据 共 为 48 827 条 , 利用 点 互信 息 法 , 得 到 表 
情 符号 词典 如 表 6 所 示 。 


表 6 表情 符号 词典 (部 分 ) 
表情 符号 情感 分 类 表情 符号 情感 分 类 
[doge] 8 抱 抱 
[ 吐 吐 ] 1 坏 笑 1 
[二 哈 1 称 屏 2 
[ 打 脸 ] 4 污 1 
[ 哆 啦 A 梦 笑 ] 1 多 悲 4 
[ 哆 啦 A 梦 汗 ] 7 笑 而 不 语 ] 1 
[ 话 简 ] 2 费解 8 
[ 哆 啦 A 梦 开 心 ] 1 展 悍 2 
[ 笑 cry] 1 并 不 简单 ] 2 
[扒手 ] 8 微笑 1 


最 终 得 到 表情 符号 词典 对 应 情感 分 类 情况 如 表 7 
所 示 。 


表 7 表情 符号 词典 情况 


情感 分 类 表情 符号 量 
乐 [微笑 ][ 哈 哈 ][ 偷 笑 ][ 太 开心 ] 32 
好 [ 爱 你 ][ 亲 素 ][ 辟 掌 ][ 心 ] 31 
妈 怒 ][ 抓 狂 ][ 怒 加] 9 
哀 允 翡 ][ 委 届 ][ 失 望 ][ 翡 伤 ] 14 
慢 害羞 ][ 哆 啦 A 梦 害 怕 ][ 闫 噶 噶 ] 8 
恶 坏 笑 ][ 挖 鼻 ][ 闭 嘴 ][ 名 视 ] 8 
惊 吃惊 ][ 惊 炙 5 
疑 费解 ][ 疑 问 6 
总 计 113 


(5) 微 博 细 粒 度 情感 计算 
在 微 博 数据 获取 过 程 中 , 已 通过 “{…}, ”， 对 每 一 
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条 微 博 进 行 分 割 , 因此 可 将 每 一 条 微 博 看 作 是 一 句 独 
立 的 话 , 将 其 进行 分 词 后 , 依据 已 经 补充 完 的 情感 词 
典 及 构建 好 的 修饰 词 词 表 , 就 可 以 快速 、 精 准 地 运算 
出 微 博 的 情感 倾向 。 本 文中 每 条 微 博 用 Iteml 、 
Item2、…、Itemn 表示 。 由 于 DUTIR 中 有 的 情感 词汇 
不 只 有 一 个 情感 分 类 及 强度 , 因此 ,对 于 该 情感 词 ; 的 
情感 强度 值 , 本文 用 以 下 公式 计算 。 


户 =》o (<k<n,net{,2)) 
天 = 


其 中 , a 为 情感 词 的 情感 强度 值 , 8 为 情感 词 的 极 性 
值 , n 为 情感 词 有 几 类 情感 分 类 , 若 n=1, 则 该 情感 词 只 
有 一 类 情感 , 若 n=2, 则 该 情感 词 有 辅助 情感 分 类 。 

由 于 DUTIR 将 情感 词 分 为 21 小 类 , 而 本 文 只 需 
最 后 判别 出 微 博 情感 的 8 大 类 ,因此 需要 将 情感 词 的 
情感 分 类 先 归 为 8 大 类 中 的 某 类 , 方法 如 下 。 
_ {x Qubu |< | pr | 

N,| aaa | | op | 

其 中 , M 为 情感 词汇 第 一 个 情感 分 类 ，wkuCu 为 
该 类 别 下 的 情感 强度 值 ，N 为 该 情感 词 的 辅助 分 类 ， 
Qi2Bio 为 该 类 别 下 的 情感 强度 值 -WM 和 N 均 可 通过 计 
算 机 依据 表 2 进行 映射 后 得 到 其 具体 情感 类 别 。 

在 得 到 某 个 情感 词汇 的 情感 分 类 及 情感 强度 值 
后 ,结合 所 构建 的 程度 副词 词 表 和 否定 词 词 表 对 微 博 
进行 情感 分 析 。 虽 然 否 定 词 和 程度 副词 共 现 很 常见 ， 
但 是 二 者 共 现 时 的 位 置 对 于 情感 表达 的 影响 也 应 值得 
注意 上。 情感 词 、 和 否定 词 、 程 度 副词 的 组 合 模式 一 般 
如 表 8 所 示 。 

表 8 含情 感 词 的 组 合 模式 BE 


pi 


局 > 类 型 示例 
1 仅 含 情感 词 热情 
2 否定 词 + 情 感 词 不 热情 
3 程度 副词 + 情感 词 太 热情 
4 否定 词 + 程 度 副词 + 情感 词 不 太 热情 
5 程度 副词 + 和 否定 词 + 情 感 词 太 不 热情 
6 否定 词 + 和 否定 词 + 情 感 词 没有 不 热情 


结合 程度 副词 与 否定 词 , 情感 词 的 情感 值 计算 公 
式 623 如 下 。 
瓦 =(-D4apim 
其 中 , 5 为 情感 词组 合 的 情感 值 , 0; 代 表 组 合 中 否 
定 词 的 数目 , a 代表 组 合 中 程度 副词 的 强度 , m 代表 组 
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合 权 值 , 由 于 组 合 4 的 特殊 性 , 设 组 合 4 的 权 值 为 m=0.4， 
其 他 组 合 权 值 为 m=1, 不 起 加 强 或 削弱 的 作用 中 。 

由 于 含有 表情 符号 的 微 博 占 比 为 18.73%, 约 为 
20%， 因 此 将 表情 符号 词典 的 权 值 赋值 为 0.2, 每 条 
微 博 中 某 j 类 情感 的 表情 符号 数目 为 % 考虑 到 表情 
符号 前 也 有 可 能 有 否定 词 和 程度 副词 的 修饰 , 则 每 
条 微 博 中 表情 符号 所 表达 的 该 类 情感 的 强度 值 计算 
公式 如 下 。 

Eo = 0.20(-D2 asms, 

则 每 条 微 博 中 某 j 类 情感 的 强度 值 计算 公式 如 下 ， 

其 中 N 为 情感 词 数 目 。 


N 
E; = 5, 生 Eonoji 
| 


最 终 , 该 条 微 博 的 情感 分 类 为 |B, |aax 所 属 那 类 
情感 ， 强 度 值 E=1 Ej wo -|Ej lel， 值 的 符号 同 


| 五 |max 。 

由 于 社会 化 媒体 互动 性 强 的 特征 ,每 条 微 博 通常 
会 有 评论 、 点 赞 和 转发 ， 这些 行为 在 一 定 程度 上 也 代 
表 了 该 条 微 博 所 表达 情感 的 强度 ,因此 本 文 赋予 其 权 
值 如 下 : 评论 数 x=0.02， 点 赞 数 y=0.1, 转发 数 二 0.2， 
综 上 所 述 , 则 每 条 微 博 Item 的 情感 值 计算 公式 如 下 。 

Erm = Ex(l+0.02x+0.1y+0.22) 


ltem 


4 实证 研究 


4.1 数据 收集 与 预 处 理 

网 络 购物 已 成 为 当今 社会 主流 的 购物 方式 , 而 随 
着 社会 化 媒体 技术 的 进步 ， 人们 更 倾向 于 在 购物 时 参 
考 他 人 对 商品 的 评论 以 进行 决策 制定 。 当 今 社会 医药 
市 场 不 断 发 展 , 治疗 同一 疾病 的 药物 数量 众多 、 种 类 
繁杂 , 因此 如 何 进 行 药物 的 选 购 是 一 个 或 待 解决 的 问 
题 。 微 博 已 成 为 人 们 交流 信息 的 首选 平台 ， 人 们 在 这 
里 分 享 自 己 或 亲人 、 朋 友 的 用 药 体 验 , 形成 来 自用 户 
的 用 药 反 应 的 第 一 手 资料 。 通 过 对 微 博 平台 上 的 药物 
相关 微 博 进 行情 感 分 析 , 不 仅 有 助 于 为 用 户 选 购 药品 
提供 可 靠 的 参考 , 也 有 助 于 医药 企业 及 时 获取 消费 者 
对 其 产品 的 评价 , 以便 发 现 产品 的 不 足 之 处 ,采取 有 
效 措施 提高 药品 质量 , 形成 一 个 良好 的 评价 信息 系 
统 。 现 代 社 会 人 们 的 生活 模式 发 生 了 巨大 改变 , 糖尿 
病 发 病 率 逐 年 上 升 。 资 料 显示 , 2 型 糖尿 病 的 发 病 呈 逐 
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渐 加 重 的 流行 趋势 , 并且 儿童 以 及 青少年 2 型 糖尿 病 表 9 药品 数据 
发 病人 数 近 年 来 迅速 上 升 门 。 本 文 使 用 Python 语言 种 类 名 称 数量 。 ”总计 
\ 半 全 新 浪 微 博 平台 簿 > > k 二 甲 双 肽 248 
进行 编程 ， 从 新 浪 微 博 平台 息 取 微 博 用 户 所 发 表 的 2 双 肽 类 口服 降 糖 药 oa 5 
型 糖尿 病 的 7 类 常用 药品 相关 微 博 进行 分 析 , 分 别 是 格 华 止 、 美 迪 康 105 
8 Ss | 格 列 吡 嗪 119 
双 肘 类 口服 降 糖 药 、 磺 脲 类 口服 降 糖 药 、 非 磺 脲 类 口 磺 服 类 口服 降 粮 药 。 咒 易 宁 了 166 
po er 起 和 J 
服 降 糖 药 、o 葡萄 糖苷 酶 抑制 剂 、 胰 岛 素 增 敏 剂 、 瑞 格 列 奈 je 
DPP-4 抑制 剂 、 复 方 制剂 。 分 别 选 取 每 一 类 药物 的 非 磺 逐 类 口服 降 粮 药 诺 和 龙 41 203 
药品 名 称 作 为 关键 词 , 候 取 内 容 包 括 微 博文 本 (text) | 阿 卡 波 糖 172 ee 
0 J 
及 其 评论 数 (commenb 、 转 发 数 (transfer)、 点 赞 数 拜 糖 平 88 
(like)、 用 户 ID(uid)， 进行 清洗 后 数据 为 1 704 条 ,如 胰岛 素 增 敏 剂 罗 格 列 酮 61 D0 
文 迪 雅 144 
表 9 所 示 。 i 格 列 汀 186 
DPP-4 抑制 剂 305 
4.2 ”数据 结果 分 析 制 间 捷 诺 维 119 
通过 上 述 情 感 分 析 方 法 对 所 获取 的 1 704 条 关于 复方 制剂 消 渴 丸 212 212 
2 型 糖尿 病 7 种 药物 的 微 博 进行 分 析 , 结果 如 图 2 所 示 。 总 计 1 704 
向) 别 双 且 类 口服 降 糖 药 磺 腺 类 口服 降 糖 药 非 磷 脲 类 口服 降 糖 药 a 葡萄 糖苷 酶 抑制 剂 胰岛 素 增 敏 剂 DPP-4 抑 制剂 复方 制剂 
条 数 分 值 ”均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 
乐 19 212 11.158 8.12 导 55 6.111 8.3 6 22 3.667 1.63 10 3 0.3 0.2 30 430 14.333 38.15 20 267 13.35 14.34 16 276 17.25 17.57 
好 129 1368 10.605 52.38 30 101 3.367 15.21 77 595 7.727 43.98 75 570 7.6 37.19 49 336 6.857 29.82 113 1077 9.531 57.86 65 602 9.262 38.32 
怒 p -14 -14 0,54 和 2.5 2.5 0.38 0 0 0 0 0 0 0 0 0 0 0 0 2 6 3 0.32 | 3 2.333 0.45 
说 了 -18 |-2.571| 0.69 4 -12.5 -3.125 1.9 0 0 0 0 8 -35 -4.375 2.28 4 8 2 0.71 8 -35 -4.375 1.88 8 -39 -4.875 48 
悍 5 = 振 =3.2 0.61 2 -4 -2 0.6 0 0 0 0 1 =6.5 | “6.5 | D42 4 -38 | -9.5 3.37 2 |=11,5|=5.,76| 0,862 1 = 站 -6 0.38 
恶 39 -261 -6.692 9.99 24 -128 -5.333 19.31 30 -176 -5.867 13 48 -218.4 -4.55 14.25 24 -56 -2.333 4.97 22 -102.5-4.659 5.51 55 -262 -4.764 16.68 
惊 0 0 0 0 0 0 0 0 0 0 0 0 4 24.5 6.125 1.6 . 10 10 0.89 a 11 41 0. 59 0 0 0 0 
疑 64 722.5 11.289 27.67 43 360 8.372 54.3 53 560 10.566 41.39 71 675.4 9.513 44.1 29 249 8.586 22.09 35 351.5 10.042 18.88 36 379 10.528 24.12 
总 计 264 2611.5 9. 892 1 113 663 5.867 1 166 1353 8.151 二 217 1532.8 7.064 1 141 "1127 7.993 一 203 1861.5 9.17 1 184 1571 8.538 bh 


图 2 2 型 糖尿 病 7 类 药物 情感 分 析 
( 注 : 条 数 = 清洗 后 微 博 条 数 -情感 值 为 0 条 数 ; @ 均 值 指 的 是 情感 强度 均值 ,计算 方式 为 分 /条 数 ; @ 百 分 比 为 各 情感 分 值 占 总 情感 值 


的 百分比 。) 


由 于 各 类 药物 获取 的 微 博 数 目 不 一 , 仅 从 情感 强 
度 值 比较 分 析 情 感 倾向 有 失 偏 颇 , 因此, 图 2 中 给 出 
情感 强度 均值 。 横 向 比较 来 看 , 微 博 用 户 对 于 2 型 糖 
尿 病 7 类 药物 的 情感 ， 以 “ 怒 ”" 最 少 , 对 双 肌 类 口服 降 
糖 药 呈 现 出 “不 怒 ” 这 个 情感 ;“ 乐 "和 “好 ”的 情感 比较 
多 且 强 烈 ,“ 衣 ”和 “ 悍 " 类 虽 也 占有 一 定 比重 , 但 除了 胰 
岛 素 增 敏 剂 的 “ 户 ” 为 正 值 外 ,其 余 均 为 负 值 或 零 , 说 
明 一 部 分 用 户 对 这 些 类 药物 既 不 喜欢 也 不 讨厌 , 对 于 
这 部 分 用 户 , 药 企 可 有 针对 性 地 进行 关注 , 努力 将 其 
转化 为 积极 情绪 ; 值得 一 提 的 是 , 各 类 药物 中 “ 疑 " 的 
情感 占 比 并 不 少 , 说 明 人 们 对 7 类 药物 均 存 在 一 定 的 
疑问 ; 对 于 “ 惊 * 这 类 情感 ,7 类 药物 中 呈现 两 极 分 化 ， 
有 的 药物 为 0, 非 0 药物 则 情感 强度 值 较 大 。 此 外 , 双 
肢 类 口服 降 糖 药 的 情感 微 博 条 数 最 多 ,可见 人 们 对 双 
肢 类 口服 降 糖 药 情感 丰富 , 且 强 度 较 大 , 说 明 人 们 讨 
论 该 类 药物 较 其 他 药物 频繁 , 情感 表达 丰富 。 


囊 


根据 8 类 情感 所 占 的 百分比 绘制 成 图 , 可 以 清晰 
地 显示 人 们 对 7 类 药物 的 情感 倾向 ， 如 图 3 所 示 。 


复方 制剂 

DPP-4 抑 制剂 EE 划 | 
胰岛 素 增 敏 州 “IE 

a 葡萄 糖 芷 酶 抑制 家 
非 碟 及 类 口服 降 六 药 Escal 
磺 腺 类 口服 隆 粮 药 到 玫 
双 肛 关口 服 降 闹 艺 Egg 


0% 20% 40% 60% 80% 100% 
日 乐 上 好 日 既 m 哀 日 惧 日 恶 日 惊 a 疑 


图 3 7 类 药物 情感 倾向 分 布 
由 图 3 可 知 ,， 双 肘 类 口服 降 糖 药 、 胰 岛 素 增 敏 剂 、 
DPP-4 抑制 剂 及 复方 制剂 的 “ 乐 " 和 “好 ”情感 占 比 较 高 ， 
说 明 微 博 用 户 比较 偏爱 于 这 4 类 药物 ,其 中 DPP-4 抑 
制剂 居 首 ; 对 复方 制剂 、 非 磺 脲 类 口服 降 糖 药 、a 葡萄 
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糖苷 酶 抑制 剂 和 磺 脲 类 口服 降 糖 药 的 “ 恶 ” 的 情感 占 比 
较 高 ; 对 复方 制剂 、a 葡萄 糖 背 酶 抑制 剂 、DPP-4 抑制 
剂 和 磺 脲 类 口服 降 糖 药 的 “ 哀 "情感 占 比较 高 ,说 明 人 
们 对 复方 制剂 、c 葡萄 糖苷 酶 抑制 剂 和 磺 脲 类 口服 降 
糖 药 这 三 类 药物 持 消极 态度 较 多 ; 与 此 同时 可 以 看 出 
人 们 对 DPP-4 抑制 剂 的 评价 呈现 两 极 分 化 ,对 复方 制 
剂 这 类 药物 情感 种 类 丰富 ， 占 比 也 较 多 , 说 明 人 们 对 
其 争议 较 大 ; 胰岛 素 增 敏 剂 的 “ 惧 ” 占 比 最 高 ; 而 各 类 
药物 的 “ 疑 ” 占 比 均 不 低 ， 以 磺 脲 类 口服 降 糖 药 居 首 ， 
说 明 人 们 对 于 磺 脲 类 口服 降 糖 药 的 了 解 不 如 其 他 药 
物 , 不 确定 性 较 多 ， 药 企 可 着 重 努 力 改善 。 

在 利用 jiebaR 包 对 数据 进行 分 词 后 ,对 切 词 结 
按照 词 频 排 序 ， 并 将 一 些 无 意义 的 词 过 滤 掉 ， 最终 找 
出 频次 大 于 等 于 20 的 特征 词 , 共 17 个 , 如 表 10 所 示 。 
表 10 高 频 特 征 词 表 


序号 ”特征 词 。 词 频 序号 ”特征 词 ” 词 频 
1 糖尿 病 145 10 ”服药 29 
2 患者 121 11 ”第 一 28 
3 民用 89 12 ”和 餐 前 26 
4 ”治疗 84 13 ”和 餐 后 25 
5 ， 降 糖 药 76 14 ”用 药 25 
6 夷 岛 素 59 15 ”长 生 不 老 21 
7 口服 55 16 ”副作用 20 
8 低 血糖 50 17 ” 首 例 20 
9 ” 餐 后 血糖 35 


由 表 10 可 知 ， 人 们 对 于 2 型 糖尿 病 药物 多 关心 其 
类 似 于 “服用 ”、“ 口 服 ”、“ 餐 前 ”、“ 餐 后 "等 服用 方法 以 
“副作用 ”、“ 低 血糖 ” 竺 药物 的 副作用 。 此 外 ,还 讨论 
了 药物 疗效 之 外 的 对 人 们 有 利 的 作用 诸如 “长 生 不 老 ” 
等 。 为 了 更 进一步 了 解 人 们 对 于 这 些 高 频 特征 词 的 情 
感 倾向 , 本 文 分别 将 包含 每 一 个 高 频 词 的 微 博 数据 提 


100%— 本 
90% 


疑 = 惊 9 恶 a 惧 a 启 a 婚 a 好 s 乐 
图 4 高 频 特 征 情感 分 布 比例 


物 相关 的 情感 并 没有 人 愤怒 的 情绪 在 里 面 ;“ 好 ” 占 比 最 
多 的 特征 是 “ 首 例 "“ 长 生 不 老 ”, 说 明 人 们 对 于 2 型 糖 
尿 病 药物 的 首要 地 位 是 认可 的 , 对 2 型 糖尿 病 药物 能 
使 人 延长 寿命 这 一 特点 多 数 持 积 极 态 度 , 但 也 存在 少 
部 分 的 怀疑 ; 对 于 服药 方法 中 “口服 ”的 情感 倾向 也 好 
过 其 他 的 服药 方法 。“ 恶 ”的 占 比 前 三 是 “ 降 糖 药 "、“ 患 
者 ”"“ 和 餐 后 血糖 ” 说 明 人 们 仍然 对 患 有 2 型 糖尿 病 的 
患者 需 服 用 降 糖 药 的 事实 比较 反感 ， 对 监测 餐 后 血糖 
这 种 行为 比较 厌恶 ;“ 惧 ”的 占 比 最 高 的 是 “治疗 ”和 "“ 降 
糖 药 ”“ 哀 "最 高 的 是 “ 低 血 糖 ” 可 知 纵然 治疗 2 型 糖 
尿 病 的 药物 众多 ， 人 们 还 是 对 降 糖 药物 存在 一 些 臣 惧 ， 
在 药物 引起 的 副作用 中 对 低 血 糖 最 为 反感 ; 横向 比较 
来 看 ， 对 于 “服用 ”“ 口 服 ”"“ 和 餐 前 ”“ 餐 后 "这 种 表达 
药物 服用 方式 的 词汇 人 们 的 情感 "好 ”的 占 比 有 绝对 
优势 , 说 明 人 们 谈 及 2 型 糖尿 病 药 物 时 ， 更 喜欢 讨论 
其 服用 方法 。 
4.3 数据 结果 验证 

为 了 验证 本 文 提 出 的 情感 分 析 方法 的 有 效 性 , 选 
取 三 名 工作 人 员 对 数据 进行 人 工 标注 ,其 中 两 人 及 以 
上 标注 结果 相同 的 记录 在 案 , 标注 结果 不 同 的 , 三 人 


取出 来 , 再 次 进行 情感 分 析 。 值 得 一 提 的 是 ， 由 于 中 文 
的 复杂 性 , 微 博 中 与 高 频 词 表达 同一 意思 的 词 仍 有 许 
多 , 因此 在 采集 微 博 数据 时 ,将 特征 词 的 不 同 表达 词 
汇 也 扩展 进来 ,使 关于 特征 的 情感 更 为 可 靠 。 情 感 分 
析 结 果 如 图 4 所 示 。 

由 图 4 可 知 , 人们 谈论 药物 时 的 总 体 情感 主要 是 
“好 ”和 “ 疑 ", 其 次 是 “ 乐 ”, 除 合 有 疑问 的 情绪 外 ,对 于 
药物 的 总 体 情感 较 倾 向 于 乐观 ; 17 个 高 频 特征 词 中 均 
不 存在 “ 怒 ”, 说 明 在 2 型 糖尿 病 药物 中 ， 人 们 对 于 药 


哆 洲 数据 分 析 与 知识 发 现 


商量 之 后 决定 结果 。 将 自动 分 析 的 7 类 药物 情感 分 类 
结果 与 人 工 标注 的 情感 分 类 结果 进行 对 比 。 

评价 指标 采用 目前 广泛 接受 的 正确 率 (Precision) 
和 召回 率 (Recall)), 选用 综合 度量 指标 F 值 (F) 作 为 
Precision 和 Recall 两 者 的 调和 平均 数 来 衡量 人 评估 分 
析 的 正确 率 。 它 们 的 计算 公式 如 下 所 示 。 
判断 正确 的 该 类 别 微 博 数 
判断 为 该 类 别 的 微 博 数 
判断 正确 的 该 类 别 微 博 数 
应 判断 为 该 类 别 的 微 博 数 


Precision= 


Recall= 
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Precisiont+Recall 


实验 结果 如 表 11 所 示 。 
表 11 实验 性 能 评估 分 析 


情感 类 别 Precision Recall F 
乐 79.00% 83.15% 81.02% 
好 77.18% 85.56% 81.15% 
既 85.73% 38.83% 53.45% 
良 83.05% 35.65% 49.89% 
慢 53.42% 47.12% 50.07% 
恶 64.67% 66.96% 65.80% 
惊 54.58% 33.37% 41.42% 
疑 77.33% 78.58% 77.95% 


实验 结果 表明 ,本 文 方法 的 正确 率 、 召回 率 以 及 F 
值 均 较 高 ,其 中 “经 "和 “ 亡 ”" 正 确 率 最 高 ， 而 “ 乐 " 和 “好 ” 
的 召回 率 与 F 值 均 最 高 ,说 明 识别 负面 情绪 的 准确 率 
较 高 ， 而 识别 正面 情绪 的 可 靠 度 要 高 一 些 。 本 实验 主 
要 依赖 于 情感 词典 ， 而 情感 词典 的 8 类 情感 词 的 多 少 
也 是 影响 实验 结果 的 关键 因素 , 所 以 应 该 尽 可 能 地 丰 

感 


富 情感 词典 ,减少 对 实验 的 影响 。 


结 语 


a 


微 博 的 流行 使 得 其 中 蕴含 了 丰富 的 情感 信息 , 通 
过 对 微 博 上 的 用 户 生成 内 容 进行 情感 分 析 ， 可 以 挖掘 
其 中 的 商业 价值 和 社会 价值 。 目 前 , 情感 分 析 领 域外 
研究 多 是 将 情感 进行 正 负 二 元 分 类 , 或 是 加 上 中 性 三 
元 分 类 ,很 少 更 细致 地 划分 情感 类 别 , 也 没有 考虑 情 
感 的 情感 强度 。 本 文 针 对 人 类 情感 复杂 的 特点 ,在 
DUTIR 情感 词汇 本 体 库 的 7 类 情感 基础 上 丰富 了 一 类 
占 比较 多 的 情感 “ 疑 ”, 通过 语 料 分 析 及 词典 查阅 构建 
了 疑问 词 词 表 以 此 对 DUTIR 进行 扩展 ,让 情感 分 类 得 
更 细腻 ,同时 考虑 了 表情 符号 对 于 情感 表达 的 影响 ， 
构建 了 表情 符号 情感 词典 , 参照 表情 符号 在 微 博 中 的 
占 比 赋予 其 权 值 ， 此外, 还 构建 了 否定 词 词 表 与 程度 
副词 词 表 辅 助 情感 分 析 ， 有 助 于 更 准确 地 计算 情感 值 ， 
从 而 得 到 每 一 类 别 情感 的 强度 值 , 便于 对 其 进行 比较 
分 析 。 

此 外 ,针对 微 博 的 情感 分 析 多 应 用 于 酒店 、 汽 车 
等 商务 领域 , 在 药物 方面 的 研究 较 少 ,因此 本 文通 过 
对 2 型 糖尿 病 药 物 进行 细 粒 度 情 感 分 析 , 不 仅 得 到 了 
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人 们 对 于 7 类 药物 的 情感 分 类 及 强度 ,也 得 到 了 人 们 
对 于 药物 的 哪 种 属性 最 为 关心 , 从 而 可 为 2 型 糖尿 病 
的 药物 选择 提供 参考 ， 由 本 文 结果 可 以 得 知 二 甲 双 肢 
类 药物 最 为 领先 , 不 仅 所 含情 感 丰富 , 积极 方面 的 情 
感 也 最 多 。 其 余 各 个 药物 均 有 自身 的 特点 , 各 有 所 长 。 
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Fine-grained Sentiment Analysis Based on Weibo 
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Abstract: [Objective] This paper conducts a fine-grained sentiment analysis of Weibo posts by dividing the sentiments 
into eight categories and calculating their intensity values. [Methods] First we analyzed the Weibo corpus to construct 
the question word list. Besides the seven sentiments defined by DUTIR, we added “suspected ”to the list. Then, we used 
the Pointwise Mutual Information method, the impacts of negative words and the degree adverbs to construct the 
expression Symbol dictionary. We employed Python to retrieve the needed data from Weibo, and applied the jiebaR 
package to segment the words. Finally, we classified the sentiments and calculated their intensity. [Results] We got the 
proportion of eight sentiment categories and sentiment intensity of commonly used drugs for diabetes. The Precision 
values of “angry” and “sad” were the highest (85.73% and 83.05%), while the Recall and F values of “happy” and 
“like” were the highest (more than 81%). The Precision, Recall and F values of “suspected” were 77.33%, 78.58% and 
77.95% respectively. [Limitations] The sentiment dictionary needs to be expanded. [Conclusions] The proposed model 
could analyze the sentiment of Weibo Posts more effectively than traditional methods. 


Keywords: Microblog Fine-grained Sentiment Analysis Drug 


BBC Monitoring 加 入 OpenAthens 联盟 以 扩展 全 球 访问 


近日 , BBC Monitoring 加 入 了 OpenAthens 联盟 ,进一步 扩展 其 大 学 和 其 他 国际 组 织 的 单 点 登录 选择 ,， 这些 大 学 和 国际 组 
织 将 以 全 球 150 多 个 国家 的 多 种 语言 访问 BBC Monitoring 的 广播 、 新 闻 和 媒体 资源 。 

加 入 OpenAthens 联盟 将 使 BBC Monitoring 能 够 在 全 球 拓展 其 商业 客户 群 。 其 商业 客户 目前 包括 : 媒体 组 织 、 外 国政 府 、 
非 政府 组 织 、 大 学 、 大 使 馆 、 新 闻 机 构 、 智 库 等 。 

“向 英国 和 其 他 国家 的 高 校 提供 服务 是 我 们 的 商业 战略 。OpenAthens 意味 着 我 们 可 以 为 那些 希望 为 用 户 批量 启用 单 点 登 
录 的 客户 提供 简单 又 经 过 身份 验证 的 访问 。 添 加 OpenAthens 为 英国 以 外 的 大 学 访问 BBC Monitoring 的 订阅 服务 提供 了 男 一 
个 选择 。”BBC Monitoring 业务 发 展 总 监 Markus Ickstadt 表示 。 

BBC Monitoring 为 BBC( 英 国 广播 公司 ) 在 英国 和 全 球 的 新 闻 和 节目 团队 英国 政府 以 及 众多 商业 客户 提供 服务 ; 是 BBC 
世界 服务 集团 的 一 部 分 , 成 立 于 1939 年 ， 目 前 可 以 通过 多 种 语言 跟踪 150 多 个 国家 ,并 利用 本 地 渠道 来 过 滤 、 翻 译 和 报告 突 
发 新 闻 、 媒 体 行为 和 新 兴 趋 势 。 

Eduserv 是 一 家 位 于 英国 巴 斯 的 非 营 利 IT 服务 公司 , OpenAthens 是 其 一 部 分 , 提供 涵盖 身份 和 访问 管理 、 托 管 云 服务 、 
网 络 弹 性 和 应 用 程序 集成 的 一 系列 服务 。OpenAthens 提 殿 身份 和 访问 管理 解决 方案 并 为 OpenAthens 联盟 的 成 员 提 供 支 持 
服务 。 来 自 46 个 国家 的 400 多 个 组 织 的 全 球 400 多 万 用 户 受益 于 OpenAthens。 

(编译 自 : http://www.bbc.co.uk/mediacentre/latestnews/2017/bbc-monitoring-openathens) 
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